在许多真实世界应用程序的组合匪徒如内容缓存,必须在满足最小服务要求的同时最大化奖励。此外,基本ARM可用性随着时间的推移而变化,并且采取的行动需要适应奖励最大化的情况。我们提出了一个名为Contexal Combinatial Volatile Birtits的新的强盗模型,具有组阈值来解决这些挑战。我们的模型通过考虑超级臂作为基础臂组的子集来归档组合匪徒。我们寻求最大化超级手臂奖励,同时满足构成超级臂的所有基座组的阈值。为此,我们定义了一个新的遗憾遗嘱,使超级臂奖励最大化与团体奖励满意度合并。为了便于学习,我们假设基臂的平均结果是由上下文索引的高斯过程的样本,并且预期的奖励是Lipschitz在预期的基础臂结果中连续。我们提出了一种算法,称为阈值组合高斯工艺的上置信度界限(TCGP-UCB),最大化累积奖励和满足组奖励阈值之间的余额,并证明它会导致$ \ tilde {o}(k \ sqrt {t \ overline { \ gamma} _ {t}})$后悔具有高概率,其中$ \ overline {\ gamma} _ {t} $是与第一个$ t $轮中出现的基本arm上下文相关联的最大信息增益$ k $是所有在所有轮匝上任何可行行动的超级臂基数。我们在实验中展示了我们的算法累积了与最先进的组合强盗算法相当的奖励,同时采摘群体满足其阈值的动作。
translated by 谷歌翻译